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Beschreibung 

Rekonf igurierbare Architektur zur parallelen Berechnung 
beliebiger Algorithmen 

5 

1 Exnleltung 

Die vorliegende Erfindung bezieht sich auf eine Architektur 
einer Rechnereinrichtung zur parallelen Berechnung von Algo- 
10 rithmen mit wenigstens einem Schaltnetzwerk , 

2 Stand der Technik 

2.1 Bekannte Rechnermodelle 

15 

Allgemein wird die sogenannte , Von-Neumann-Architektur ' , wie 
sie aus der prinzipiellen Darstellung der Figur 1 hervorgeht, 
als Universalrechnereinrichtung angesehen. Darunter ist zu 
verstehen, dass mithilfe eines Rechners, auf dieser Architek- 

2 0 tur mit den Komponenten Central Processing Unit [CPU, darin 
enthalten Control Unit (CU) und Arithmetical -Logical Unit 
(ALU)], Memory (Speicher) , Input/Output (Ein-/Ausgabe) und 
Bussystem basierend, alle algorithmierbaren Probleme prinzi- 
piell berechnet werden konnen. Die Einstellung eines solchen 

25 Rechners auf das jeweilige Problem erfolgt durch ein Pro- 

gramm, d.h., eine textuelle Beschreibung des Algorithmus z.B. 
in den Programmiersprachen C, C++ oder Java. Dieses Programm 
wird durch einen Ubersetzer (Compiler) , selbst ein Programm 
darstellend, in ein Maschinen-lesbares Programm libersetzt. 

30 

Die Programmbearbeitung erfolgt in den Rechner, die auf der 
Von-Neumann-Architektur nach Figur 1 und ahnlichen Architek- 
turen (z.B. einer Harvard- oder modif izierten Harvard- 
Architektur) basieren, prinzipiell auf sequenzielle Weise. 
35 Dies ist so zu verstehen, dass der Algorithmus, bestehend aus 
einer Menge von Maschinen-Instruktionen, dadurch bearbeitet 
wird, dass die erste Instruktion bekannt ist. Die einem Be- 
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fehl nachf olgende Instruktion ist entweder die im Speicher an 
der nachsten Adresse stehende (normaler Prograirimf luss) , oder 
die letzte ausgefiihrte Instruktion war ein Sprungbef ehl , der 
den aktuellen Programmstand an eine andere Stelle versetzt. 
5 Das interne Register, das den aktuellen Programmstand spei- 
chert, wird mit , Program Counter^ (PC) bezeichnet. 

Dieses Prinzip der sequenziellen Bearbeitung bedeutet, dass 
sich zu einem Zeitpunkt genau eine Instruktion in der Bear- 

10 beitung befindet. Es wird als Von-Neumann-Prinzip bezeichnet - 
Moderne Architekturen, die als RISC (Reduced Instruction-Set 
Computing) , superskalar oder VLIW (Very Long Instruction 
Word) bezeichnet werden, fiihren zwar zu einem Zeitpunkt mehr 
als eine Instruktion aus; das Prinzip der Sequenzialitat 

15 bleibt j edoch erhalten. Insgesamt wird dieses Ausf uhrungs- 
prinzip als ' zeit-sequenziell ' (Computing in Time) bezeich- 
net, was andeutet, dass der Algorithmus Zeit benotigt. 

Ein ganzlich anderes Prinzip der Programmbearbeitung ist in 
20 programmierbaren Logikbausteinen [PLDs (Programmable Logic De- 
vices) , entsprechend Figur 2] bzw. deren bekanntester Imple- 
mentierung, den FPGAs (Field- Programmable Gate Arrays) , vor- 
gesehen. Auch diese Architektur ist universell, d.h. fur je- 
des algorithmierbare Problem einsetzbar. Die Programmierung 
25 erfolgt hierbei so, dass elementare Recheneinheiten, meist 

auf Bit-Ebene definiert und daher als Logikelemente bezeich- 
net, in einem Netzwerk verschaltet werden. Diese Form der 
Programmierung wird meist als , Konf iguration^ bezeichnet. 

3 0 Die Programmbearbeitung in einem PLD erfolgt im Unterschied 
zum Von-Neumann-Prinzip mit maximaler Parallelitat . Die ge- 
samte Konf iguration eines Bausteins kann als eine einzige In- 
struktion - im Gegensatz zum Von-Neumann-Prinzip allerdings 
nicht fest definiert, sondern zusammengeset zt - aufgefasst 

35 werden, die in einem Zyklus komplett bearbeitet wird. Die 

Zykluszeit, haufig mit einem externen Takt in Verbindung ge- 
bracht, ist dann von der Komplexitat der Zusammensetzung ab- 

2 
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hangig. Hierdurch kommt ein im Vergleich zu Prozessoren nied- 
rigerer Takt zum Einsatz, der aber durch die Parallelitat der 
Ausfiihrung mehr als ausgeglichen wird. Dieses Prinzip der 
Ausfiihrung wird als , Computing in Space ^ bezeichnet. 

5 

2.2 Deterministische endliche Automaten 

Eines der wesentlichen Modelle zur Algorithmierung von Prob- 
10 lemen sind deterministische endliche Automaten [DEAs, auch 
DFAs (deterministic finite automata) ] . Diese werden in der 
Technik auch als , Finite State Machines^ (FSMs gemafi der 
prinzipiellen Darstellung nach Figur 3) bezeichnet- Dieses 
Modell betrachtet das Problem als eine Folge von Zustanden 
15 mit definierten Ubergangsf unktionen (Next State Decoder) zwi- 
schen diesen, abhangig von den Eingangswerten . Obwohl das Mo- 
dell des DEA theoretisch nicht so machtig ist wie das des 
Von-Neumann-Modells, konnen in der Praxis beliebige Probleme, 
ggf . mit Zusatz im Modell, gelost werden. 

20 

Das groSte Problem dieser DEAs besteht darin, dass ihre Funk- 
tionen mit der Anzahl der Zustande in exponentieller Weise 
anwachsen, den Flachenbedarf an Halbleitermaterial (insbeson- 
dere Silizium) betreffend. Aus diesem Grund wahlt man gerne 
25 Modelle, die aus vielen, miteinander kommunizierenden Automa- 
ten bestehen. Ein derartiges Rechnermodell wird als ,komple- 
xer, kooperierender Automat^ bezeichnet. 

2.3 Darstellung Boolescher Funktionen 

30 

Eine Boolesche Funktion oder Schaltfunktion ist eine Abbil- 
dung f: B"^ --^ B"", mit B={0,l}, die in der Form f = 
(fi, ±2, . . . f n) , also als Vektor von Funktionen fk: B"^ — > B 
dargestellt werden kann. Im Folgenden wird daher nur von 
35 Funktionen mit einem Ausgangswert ausgegangen; diese wer- 
den allgemein als f bezeichnet. 
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Es ist weiterhin bekannt, dass f in Form einer dis junktiven 
Oder konjunktiven Normalform darstellbar ist. Fur die dis- 
junktive Normalform bedeutet dies, dass 

f = zl + z2 ... + zk, mit k = 1, 2, 2m und ' + ' als OR- 

5 Operator (logisches ODER) (1) 
und 

zi = yl * y2 * „. yn mit i = 1, 2, k mit als AND- 

Operator (logisches UND) (2) 
gilt. Es werden nattirlich nur solche zi verwendet, fiir die 

10 die zu beschreibende Funktion den Wert TRUE oder '1' erhalt. 
Die Bezeichnung yj bestimmt dabei, wie ein Inputbit ik aus 
dem Inputvektor x = (ii, ±2, -..ik) werden soil. Wahrend fur die 
Inputbits nur Werte aus der Menge {O, l} zugelassen sind, 
muss dies fur yj geandert werden: Diesen Werten wird eines 

15 aus den drei Attributen {O, 1, -- } zugewiesen. Das Attribut 

'1' fiir yj bedeutet dabei, dass ik unverandert genommen wird, 
'0' bedeutet, dass ik invertiert gewahlt werden muss (notiert 
als /ik) / und steht fur don't care; d,h., ik wird nicht 

verwendet . Werden fiir yj nur die Werte {O, l} als Attribute 

20 verwendet, spricht man von der ,kanonisch dis junktiven Nor- 
malform' . 



Diese Darstellung ist deswegen bedeutend, well dadurch bei 
bekannter Reihenfolge der Inputbits die Teilausdriicke zi ge- 
25 maE vorstehender Gleichung (2), auch als , Terme ^ bezeichnet, 
als sogenannte , String terme'' darstellbar sind: Bei einer Rei- 
henfolge il, i2, i3 bedeutet "111", dass zl = il * i2 * i3 
ist, "0-1" steht fiir z2 = /il * i3 usw. 

30 Bei drei Inputbits ist die Menge aller moglichen Inputvekto- 
ren V = {000,001,010,011,100,101,110,111}. Falls beispielhaft 
die Funktion f nur an den Eingangsvektor {001,011,111} den 
Wert TRUE erhalt, brauchen oder diirfen auch nur diese angege- 
ben werden; in Form von Stringterms kann dies durch 111 und 

35 0-1 erfolgen, dies charakterisiert vollstandig die gegebene 
Funktion und ist isomorph zur disjunktiven Normalform 
f = /il * 13 + il * i2 * 13 
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2 . 4 Con t ent - Addr e s s ab 1 e Memory ( CAM ) 

Lese-ZSchreib-Speicherbausteine [RAM (Random Addressable 
5 Read/Write Memory) ] werden iiblicherweise zur Speicherung von 
Daten und Programmen genutzt. In diesem Fall liegt eine Ad- 
resse an dem Adressbus an, und nach Ablauf einer Baustein- 
spezifischen Wartezeit ist beim Lesevorgang das gespeicherte 
Datum am Datenbus anliegend und kann welter verwendet werden. 
10 ^Der Schreibvorgang ist in entsprechender Weise arbeitend. 

Aus Sicht der Instanz, die die Daten erhalten mochte (z.B. 
ein Prozessor) , ist die Adresse bekannt, und der gespeicherte 
Inhalt ist vorher unbekannt . Es existieren jedoch Anwendun- 

15 gen, bei der das Verhaltnis genau umgekehrt ist: Der gespei- 
cherte Inhalt ist bekannt, und das Interesse ist, an welcher 
Adresse dieser Inhalt gespeichert ist, wobei die Antwort auch 
'nicht vorhanden' sein kann, Speicherbausteine, die diese Art 
der Abfrage unterstiitzen, werden als , Content -Addressable Me- 

20 mories' [CAMs (Inhalts-adressierbare Speicherbausteine)] be- 
zeichnet . 

Speicherbausteine, die als CAM bezeichnet werden und dieses 
Verhalten direkt unterstut zen, gelten als spezielle Bausteine 

25 und sind keineswegs haufig anzufinden. Fur praktische Anwen- 
dungen kann man jedoch die Funktionalitat des CAM durch ubli- 
che RAM-Bausteine emulieren. Hierzu miissen fur alle Daten, 
die im CAM direkt gespeichert werden warden, bei einer Abfra- 
ge jedoch nicht der Wert, sondern die Speicheradresse erge- 

3 0 ben, die korrespondierenden Adressen vorher berechnet werden 
und an der RAM-Adresse, die dem Datum entspricht, gespeichert 
werden , 

2.5 Zellulare Automaten 

35 

Zellulare Automaten [CAs (cellular automata) ] sind eine Menge 
von endliche Automaten, die in einem Feld mit f eststehender 
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Topologie angeordnet sind und weitere Eigenschaf ten besitzen 
(vgl. Literaturzitate [1] und [4]). Diese Menge von FSMs ist 
als n-dimensionales Array (meist gilt u = 2) angeordnet, wo- 
bei jedem Platz feste Koordinaten gegeben sind. Jede FSM be- 
5 sitzt eindeutig Nachbarn, mit denen kommuniziert werden kann. 
Im Fall n = 2 werden meist die 4 umliegenden FSMs (in den 
'Himmelsrichtungen' N, E, W, S, daher auch als ,NEWS- 
Nachbarschaf t ^ bezeichnet) als Nachbarn angesehen. 

10 Die Kommunikation mit den Nachbarn erfolgt so, dass die Zu- 
stande der direkten Nachbarn lesbar und damit auswertbar 
sind. Mit jedem Zeitschritt wird der Zustand aller Zellen pa- 
rallel berechnet . Sollen Daten aus weiter entfernten Zellen 
■fur die Berechnung eines neuen Zustandes genutzt werden, so 

15 miissen diese Daten schrittweise von Zelle zu Zelle transpor- 
tiert werden. Damit sind klassische zellulare Automaten gut 
zur Berechnung von Problemstellungen mit hoher Lokalitat der 
Daten geeignet. 

20 CAs gelten als universelle Rechner wie die vorher diskutier- 
ten Architekturen; sie arbeiten zudem vollkommen parallel. 
Soil ein Netz von CAs in eine Hardwareschaltung, z.B. einen 
ASIC Oder auch PLD, abgebildet werden, so steigt die Anzahl 
der Verbindungen linear mit der Zahl der Automaten an. Die 

25 Verbindungen selbst sind je nach gewahlter Topologie nur re- 
lativ kurz und fest verlegt. Der Aufwand zur Kommunikation 
der Cas untereinander ist also relativ gering, Wird als Kom- 
plexitat einer Schaltf unktion der Speicherbedarf angesehen, 
der notig ist, diese Schaltf unktion in ein RAM abzubilden, so 

30 steigt die maximale Komplexitat der dem Verhalten einer Zelle 
entsprechenden Schaltf unktion exponentiell mit der Anzahl der 
Eingangsvariablen und linear mit der Anzahl der Ausgangsvari- 
ablen der Funktion an. Die Zahl der Eingangsvariablen ist 
hier die Summe aller Bits, die notig sind, die Zustande aller 

35 mit der Zelle verbundenen CAs einschlieSlich des Zustandes 

der Zelle selbst zu codieren. Damit ist die maximale Komple- 
xitat der Zelle im Wesent lichen durch die Anzahl der Verbin- 
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dungen eines jeden Automaten beschrankt. 

Das Konzept der globaleix zellularen Automaten [GCAs (global 
cellular automata)] liberwindet die Einschrankungen der CAs, 
5 indem Verbindungen einer Zelle nicht nur zu ihren nachsten 
Nachbarn, sondern zu beliebigen Zellen im gesamten Feld er- 
laubt warden. Damit besitzt ein GCA keine feststehende Topo- 
logie mehr sondern ermoglicht, eine an die Problemstellung 
angepasste und gegebenenf alls zur Lauf zeit der Berechnung so- 

10 gar wecliselnde Topologie zu verwenden. Dies kann zu einer er- 
heblichen Beschleunigung in der Programrabearbeitung fiihren. 
Die Anzahl der Verbindungen eines einzelnen Automaten ist ge- 
gebenenf alls durch eine obere Grenze festgelegt. Ist nur eine 
einzelne Verbindung erlaubt, so spricht man von einarmigen-, 

15 im allgemeinen Fall von Jc-armigen GCAs. 

Als Konsequenz steigt bei der Realisierung eines Feldes von 
GCAs der erf order liche Aufwand fiir die Kommunikation der Zel- 
len untereinander mit der Zahl der Zellen stark an. Die An- 
2 0 zahl der moglichen Verbindungen zwischen den einzelnen Auto- 
maten steigt quadratisch mit deren Anzahl . 

Die Koraplexitat der einzelnen Automaten selbst bzw. der 
zugrunde liegenden Schaltf unktion hangt wie bei den konventi- 
25 onellen CAs im Wesentlichen von der Anzahl der Verbindungen 
einer jeden Zelle ab. Soli ein GCA in eine rekonf igurierbare 
Schaltung (PLD) abgebildet werden, so muss jede einzelne Zel- 
le, die ja beliebige Schaltf unktionen realisieren kann, die 
maximal mogliche Komplexitat ermoglichen. 

30 

Werden die einzelnen Automaten auf jeweils ein Rechenwerk mit 
lokalem Speicher abgebildet, so kann jede Zelle auch komplexe 
Schaltf unktionen realisieren. Der Aufwand fiir eine beliebige 
Kommunikation alle Zellen steigt quadratisch mit der Anzahl 
35 der Zellen. Die Granularitat der Schaltung wird dann bestimmt 
durch die Anzahl der Zellen bzw. die Bitbreite der Verbindun- 
gen zwischen den Zellen. Eine solche Schaltung kann sehr gut 
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GCAs realisieren, die in Anzahl der FSMs und Bitbreite den 
Vorgaben der Schaltung entspreclien- Es konnen auch koraplexe 
Schaltfunktionen in jeder einzelnen Zelle realisiert werden. 
Nachteilig wirkt sicli jedoch aus, dass GCAs, die in Anzahl 
und benotigter Bitbreite der Verbindungen nicht mit der vor- 
gegebenen Kornigkeit iibereinstimmen, nur scbwierig auf die 
Schaltung abgebildet werden konnen . 

Werden die einzelnen Zellen als Schaltnetz ausgefuhrt, so 
muss jede Zelle in der Lage sein, Daten von alien anderen 
Zellen einschlieiSlich des eigenen Zustands zu verarbeiten, 
Aus diesem Grund muss jedes Schaltnetz Schaltf imktionen rea- 
lisieren konnen, die alle binarcodierten Zustande aller Zel- 
len als Eingabevariablen enthalten konnen. Die Anzahl der 
Ausgabevariablen der Schaltf unkt ion muss es lediglich ermog- 
lichen, alle Zustande einer einzelnen Zelle binar zu codie- 
ren. Nachteilig ist hier, dass die Komplexitat der Schalt- 
funktion exponentiell mit der Anzahl der Eingabevariablen an- 
steigt, Ebenfalls nachteilig ist der polynomial ansteigende 
Auf wand fiir die Kommunikation der Zellen untereinander . 

Eine (re- ) konf igurierbare Architektur (PLD) , die zur Aufnahme 
eines GCA geeignet ist, muss also pro FSM eine beliebige Kom- 
plexitat aufnehmen konnen. Dies bedeutet, dass - falls die 
FSMs direkt in eine Zelle des PLDs abgebildet werden sollen - 
die Zellen jede beliebige Funktion aufnehmen miissen. Es ist 
bekannt, dass sich hieraus ein exponentielles Wachstum der 
ZellengroEe ergibt . Das konf igurierbare Netzwerk in dem PLD 
muss zudem vollstandig ausgefuhrt sein, d.h., jeder Zellen- 
ausgang muss mit jeder anderen Zelle verbindbar sein. Das 
Netzwerk wachst damit quadrat isch an, die Konf iguration des 
Netzwerks ebenfalls. 

Derzeit sind keine PLD-Architekturen am Markt oder bekannt, 
die beide Forderungen erfullen: GroSe Zellen mit einem voll- 
standigen Designraum existieren nicht, es gibt nur kleine 
Zellen mit vollstandigem Designraum [sogenannte ,Look-Up- 
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Table -Struktur^ (LUT) ] oder groEe Zellen mit unvollstandigen 
Moglichkeiten zur Abbildung beliebiger Funktionen. Eine voll- 
standige Verbindbarkeit aller Zellen ist nur bei groEen Zel- 
len moglich. Die Abbildung von GCAs auf existierende PLDs ist 
5 damit schwierig, vielfach sogar unmoglich. 

3 Auf gabenstellung 

Aufgabe der vorliegenden Erfindung ist es, die in der Einlei- 
10 tung 1 angegebene Architektur dahingehend auszugestalten, 
dass die vorgenannten Probleme zumindest gemindert sind. 

4 Iiosungsansatz 

15 Die genannte Aufgabe wird erf indungsgemaJS mit den in Anspruch. 
1 angegebenen MaJSnahmen gelost . Demgemass soil die Architek- 
tur mit den eingangs genannten Merkmalen wenigstens ein ein- 
zeln konf igurierbares und/oder rekonf igurierbares Schaltnetz 
aufweisen, dessen Ausgangsvariablen zu einem Zeitpunkt tn-i 

2 0 die Eingangsvariablen des Schaltnetzes zum Zeitpunkt tn bil- 
den, und mit Mitteln zum Speichern der Ausgangsvariablen des 
Schaltnetzwerks zwischen den Zeitpunkten tn-i und tn versehen 
sein. 

2 5 Mit den Zeitpunkten tn-i und tn sind direkt aufeinander fol- 

gende Auswertungen der Schaltf unktion bezeichnet . In einer 
technisch giinstigen Realisierting konnen diese Zeitpunkte von 
einem eingepragten Takt mit einer Taktdauer T abgeleitet wer- 
den, so dass tn - tn-i = k-T mit k=l,2,3,... gilt. Fur eine 

3 0 gegebene Anwendung ist hierbei k konstant, fur verschiedene 

Anwendungen kann es unterschiedlich gewahlt werden. 

Nachdem feststeht, dass die Komplexitat der Schaltf unktion 
exponentiell mit der Anzahl der Eingabevariablen und linear 
35 mit der Anzahl der Ausgabevariablen bzw. der Anzahl der Zel- 
len im Feld der abzubildenden GCAs steigt und der Aufwand fur 
die Kommunikation der GCAs untereinander zumindest quadra- 
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tisch mit der Anzahl der Zellen ansteigt, ist die erfindungs- 
gemafie (re-) konf igurierbare Architektur zur Aufnahme von GCAs 
geeignet . Hierzu besteht sie aus wenigstens einem einzelnen 
konf igurierbaren Schaltnetz, dessen Ausgangsvariablen zum 
5 Zeitpunkt tn-i die Eingangsvariablen des Schaltnetzes zum 

Zeitpunkt tn bilden. Zwischen den Zeitpunkten tn-i und tn wer- 
den die Ausgange dieses Schaltnetzes in einem Speicher wie 
insbesondere in Registern gespeichert, so dass ein Schaltwerk 
bzw. eine FSM entsteht. 

10 

Vorteilhafte Ausgestaltungen der erf indungsgemaSen Architek- 
tur gehen aus den von Anspruch 1 abhangigen Anspriichen her- 
vor. Dabei kann die Aus fuhrungs form nach Anspruch 1 mit den 
Merkmalen eines der Unteranspruche oder vorzugsweise auch de- 
15 nen aus mehreren Unteranspriichen kombiniert werden. Demgemass 
kann die Architektur noch f olgendermaSen ausgebildet sein: 

- Als Speichermittel konnen Registerspeicher vorgesehen 
sein. 

- Bevorzugt ist das Schaltnetz dreistufig ausgebildet. 

20 - Dabei kann vorteilhaft eine erste Stufe mehrere parallel - 
geschaltete Speicherbausteine enthalten, die liber Eingabe- 
leitungen adressierbar sind, wobei j edem Speicherbaustein 
eine Teilmenge der in einem zugehorenden, ermittelten 
Implikanten gebundenen Eingabevariablen zuzufuhren sind, 

25 der ersten Stufe eine zweite Stufe mit Speicherbausteinen 

nachgeordnet sein, die durch Kennungen der einzelnen 
Implikanten zu adressieren sind, 
und 

der zweiten Stufe eine dritte Stufe mit Mitteln zu einer 
3 0 disjunktiven Verknupfung der Ausgabewerte der einzelnen 

Implikanten aus den Speicherbausteinen der zweiten Stufe 
nachgeordnet sein . 

- Dabei lassen sich die einzelnen Implikanten durch Minimie- 
rungsverf ahren ermitteln. 

35 - Ferner kann die erste Stufe mit der zweiten Stufe liber we- 
nigstens einen Crossbar-Switch miteinander verknupft sein. 
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Als Speicherbausteine konnen vorteilhaft CAMs und/oder 
RAMs vorgesehen sein. 

Besonders vorteilhaft ist wenigstens ein CGA zu integrie- 
ren . 

5 - Als Speicherelemente konnen magnetoresistive Bauelemente , 
insbesondere vom TMR-Typ, vorgesehen sein. Entsprechende 
tunnel magnetoresistive Elemente sind an sich bekannt . 

Den vorstehend angegebenen weiteren Ausgestaltungen der er- 
10 f indungsgemaSen Architektur liegen insbesondere die nachfol- 
gend dargelegten IJberlegungen zu Grunde : 

Die Komplexitat einer Schaltf unktion in dem gewahlten Schalt- 
netz steigt zwar linear mit der Anzahl der Ausgabevariablen 

15 an, jedoch entfallt samtlicher Aufwand fiir die Kommunikation 
der Zellen untereinander . In eine solche Schaltf unktion kon- 
nen viele einzelne Automaten mit wenigen Ausgabevariablen ab- 
gebildet werden, oder wenige GCAs mit vielen Ausgabevariablen 
Oder auch eine Mischung verschiedener Zellen. Damit ist keine 

20 Granularitat vorgegeben, und die Kommunikation der FSMs un- 
tereinander ist prinzipiell vollstandig moglich. Eine Grenze 
ist jedoch durch die maximale Komplexitat der Schaltf unktion 
gesetzt, die das Schaltnetz aufnehmen kann. 

25 Die Benutzung eines Schaltnetzes mit einer groJSen Anzahl von 
Eingangen - dies wird im allgemeinen Fall entstehen, wenn ein 
GCA mit einer Anzahl von FSMs abgebildet wird - bedeutet, 
dass wiederum eine Art exponent ielle Abhangigkeit des Fla- 
chenbedarfs von der Anzahl der Eingange entstehen kann. Als 

3 0 obere Grenze gilt ein Wachstum der Flache mit exp (Anzahl Zu- 
stande) , wenn jeder Zustand in einem Bit codiert wird; im 
allgemeinen Fall wird der Flachenbedarf geringer sein. Da ei- 
ne universelle Schaltung jedoch den Maximalfall beinhalten 
musS/ ware das exponentielle Wachstumsgesetz anzuwenden. 

35 

Hier ist es als besonders vorteilhaft anzusehen, die Schal- 
tung, die das Schaltnetz aufnimmt, in drei spezielle Ab- 
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schnitte/Stuf en einzuteilen. Dazu wird nachstehend eine 
(re) konf igurierbare Schaltung dargestellt, die Schaltfunktio- 
nen mit einer groiSen Zahl von Eingangsvariablen und einer 
groEen Zahl von Ausgangsvariablen als Schaltnetz realisieren 
5 kann . 

Um eine rekonf igurierbares Schaltnetz fiir Schaltf unktionen zu 
entwerfen, werden als Ausgangsiiberlegung zwei Moglichkeiten 
betrachtet : 

10 

Zum einen ist es moglich, eine Schaltf unktion komplett in 
einem RAM-Speicher abzulegen. Die Eingabevariablen der 
Schaltf unktion bilden die Adressbits und adressieren fur 
jede mogliche Kombination von Eingabevariablen eine Spei- 

15 cherzelle. Der Inhalt dieser Speicherzelle entspricht 

dann dem Wert der Schaltf unktion, die Datenleitungen des 
Speicherbausteins bilden die Ausgabevariablen der Funkti- 
on. Der Vorteil dieses Konzepts liegt im einfachen Aufbau 
der Schaltung, der einfachen Rekonf igurierbarkeit , der 

20 hohen Integrationsdichte von Speicherbausteinen und der 

festen Zeitdauer, die die Auswertung der Schaltf unktion 
benotigt . Allerdings steigt die Anzahl der benotigten 
Speicherzellen, also die GroEe des benotigten Speicher- 
bausteines exponent iell mit der Anzahl der Eingabevariab- 

25 len an. Aus diesem Grunde konnen nur kleine Schaltf unkti- 

onen auf diese Weise abgebildet werden. 

Dies ist Stand der Technik in PLDs und wird als Look-Up- 
Table -St ruktur bei FPGAs eingesetzt, meist mit 4 binar- 
30 wertigen Eingangsvariablen und 1 binarwertigen Ausgang. 

Eine zweite Moglichkeit , Schaltf unktionen in ein Schalt- 
netz abzubilden, besteht darin, Gatter in einem 2- oder 
mehrstufigen Netz konf igurierbar anzuordnen. Damit ist es 
35 moglich, Schaltf unktion mit einem minimalen Verbrauch von 

Gattern in Schaltnetze abzubilden. Die Schaltkreistheorie 
stellt hier giinstige Darstel lungs formen von Schaltf unkti- 
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onen wie z.B. die Reed-Muller-Form, oder auch leistungs- 
f ahige Algorithmen zur Logikrtiinimierung bereit . Der Vor- 
teil dieses Ansatzes besteht im minimalen Verbrauch von 
Gattern und in der Moglichkeit , leistungsf aliige Verfahren 
5 und Algorithmen zur Minimi erung zu nutzen (vgl . Litera- 

turzitate [2] und [3] ) . Dieses Verfahren kann gut zur 
Darstellung einer festen Schaltf unktion z.B. der Reali- 
sierung eines ROMs genutzt werden. tirber Hardwarebausteine 
wie z.B. Crossbar-Switches konnen die einzelnen Gatter 
10 rekonf igurierbar verschaltet werden, jedoch steigt hier 

der Aufwand fiir die Rekonf igurierbarke it exponentiell mit 
der Anzahl der Eingabevariablen der Schaltf unktion an. 

5 Erlauterung der Erf indung anhand elnes konkreten Ausfuh- 
3.5 rungsbeispiels 

Um die Vorteile der ersten Moglichkeit, die hohe Integrier- 
barkeit, die Rekonf igurierbarkeit und die Einfachheit der 
Schaltung, und die Vorteile der 2. Variante, den geringen 
20 Verbrauch von Gatterf unktionen und die Anwendbarkeit moderner 
Verfahren, verbinden zu konnen, ist erf indungsgemaS folgender 
Ansatz vorgesehen: 

Die Grundidee der angenommenen Ausf lihrungsf orm ist die Ent- 
25 wicklung eines rekonf igurierbaren Schaltnet zes , welches so- 
viel logische Funktionalitat wie moglich in RAM-Bausteinen 
darstellt, um den Vorteil der hohen Integrationsdichte zu 
nutzen. Diese RAM-Bausteine sollen in einer mehrstufigen 
Schaltung rekonf igurierbar miteinander verbunden werden, um 
3 0 nicht komplette Schaltf unktionen speichern zu miissen. 

1. Stufe: 

Die Eingabevariablen der Schaltf unktion werden durch die Ein- 
gabeleitungen des Schaltnetzes reprasentiert . Die erste Stufe 
3 5 der Schaltung besteht aus raehreren parallel geschalteten 

Speicherbausteinen, die durch die Eingabeleitungen adressiert 
werden, Jedem Speicherbaustein ist dabei eine Teilmenge der 
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Eingabeleitungen und damit der Eingabevariablen der Schalt- 
funktion zugeordnet . Die durch Minimierungsverf ahren ermit- 
telten Implikanten einer Schaltf unktion (minimierte zi aus 
Gl. (2) bzw. deren Stringterm-Darstellung) werden in Spei- 
cherbausteinen der Eingangsstiif e abgespeichert . Dazu werden 
in jedem Speicherbaustein, dem im Implikanten gebundene Ein- 
gabevariablen zugeordnet sind, die Belegung der Eingabevari- 
ablen im Implikanten und eine eindeutige Kennung zu diesem 
Implikanten abgespeichert. Da jedem Baustein nur ein Teil der 
Eingabevariablen zugeordnet sind, wird auch nur jeweils ein 
Teilimplikant gespeichert. In Speicherbausteinen, denen keine 
im Implikanten gebundenen Variablen zugeordnet sind, wird 
entsprechend kein Teil des Implikanten gespeichert. Liegt an 
den Eingabeleitungen des Schaltnetzes eine Bitkombination an, 
so geben alle Speicherbausteine , die zur Bitkombination pas- 
sende Teilimplikanten enthalten, deren 

Kennungen liber die Datenleitungen an die 2, Stufe der Schal- 
tung welter. 

2. Stufe: 

Die Kennungen der (Teil- ) Implikanten adressieren einen Spei- 
cher in einer zweiten Stufe. In diesem Speicher sind die zum 
jeweiligen Implikanten gehorigen Bitmuster der Kennungen und 
die Ausgabewerte der Schaltf unktion gespeichert. Entspricht 
das Bitmuster an Kennungen, die von der ersten Stufe gelie- 
fert werden, dem eines gespeicherten Implikanten, so liegt 
dieser Implikant an den Eingangsleitungen der Schaltung an. 
Die 2 . Stufe der Schaltung leitet dann die Ausgabewerte aller 
Implikanten, die an den Eingabeleitungen anliegen, liber die 
Datenleitungen an die 3. Stufe welter . 

3. Stufe: 

In der 3 . Stufe werden die Ausgabewerte der einzelnen Impli- 
kanten disjunktiv (OR) verknupft und bilden so das Ergebnis 
der Schaltf unktion. 
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Die Erf indung wird nachfolgend unter Bezugnahme auf die 
Zeichnung anhand eines konkreten Ausfuhrungsbeispieles unter 
Beriicksichtigung der vorstehenden Uberlegungen noch weiter 
erlautert- Die Zeichnung umfasst folgende Teile, wobei deren 
Figuren 1 bis 3 zum Stand der Technik unter Abschnitt 2 be- 
reits angesprochen wurden : 

Figur 1 zeigt den prinzipiellen Aufbau einer Von-Neumann- 

Architektur gemalS dem Stand der Technik, 
Figur 2 zeigt die generelle Struktur eines PLD gemaiS dem 
Stand der Technik, 

Figur 3 zeigt den prinzipiellen Aufbau einer FSM in Form ei- 
nes Mealy-Automat en gemaS dem Stand der Technik, 

Figur 4 zeigt ein Ausfiihrungsbei spiel eines Speicherauf baus 
einer erf indungsgemaiSen Architektur, 

Figur 5 zeigt die Abbildung von Springtermen auf RAM, wobei 
Teilfigur a) partielle Springterme, Teilfigur b) die 
Abbildung auf ein Tag-RAM und Teilfigur c) die Abbil- 
dung auf ein konventionelles RAM veranschaulichen, 

Figur 6 zeigt die Abbildung des Ergebnisses der Stufe 1 einer 
erf indungsgemaiSen Architektur auf eine RAM- 
Kombination in Stufe 2, 

Figur 7 zeigt eine endgultige Architektur fur das Beispiel 
[(0,1)^^ (0, 1) ^^-Funktion] , 

Figur 8 zeigt eine erf indungsgemaiSe Architektur fur ein 

Schaltwerk mit groEem Schaltnetz zur Aufnahme eines 
GCA 

und 

Figur 9 eine er f indungsgemaJSe rekonf igurierbare Architektur 
zur Aufnahme von CGAs . 

Dabei sind in den Figuren sich entsprechende Telle jeweils 
mit denselben Bezugszeichen versehen. 

Filr das Ausf uhrungsbeispiel gemaJS den Figuren 4 bis 9 sei ei- 
ne erf indungsgemaiSe Architektur mit drei Stufen, wie vorste- 
hend angesprochen, angesetzt, und zwar fur eine Schaltfunkti- 
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on mit 12 Eingabevariablen, 10 Implikanten und 8 Ausgabevari- 
ablen: Tabelle 1 zeigt hierfiir alle Implikanten (auch als 
, Minterme ' bezeichnet) fiir eine Beispielf unktion an. Die Dar- 
stellung der Stringterme ist so gewahlt, dass hierbei drei 
5 Vierergruppen entstehen. 

Tabelle 1: Beispiel fur eine Implikantentabelle, dargestellt 
durch Stringterme 
Implikanten : 
10 1. 0-11 1100 6. 0100 11-- 0000 

2. 1101 11-- 0000 7- 0001 0000 

3. -0-1 0001 8. 0001 

4^ -».10 9. 0000 

5. 0100 0001 10. -0-1 0001 1100 

15 

Betrachtet man nun diese Tabelle spaltenweise, wird man fest 
stellen, dass nur wenige verschiedene Kombinationen in den 
Stringtermen vorkommen. Bei einer zweiwertigen Darstellung 
konnte es fiir jede Spalte hier 24 = 16 verschiedene Kombina- 
20 tionen geben, bei dreiwertiger entsprechend 34 = 81. In dem 
Beispiel kommen hiervon nur 5, 3 und 4 fiir die Spalten 1-3 
vor, wobei eine Eingangskombination jeweils komplett ist 

Liegt am Eingang eine Bitkombinat ion als Parameter der 
25 Schaltf unktion an, so liefert ein Speicherbaustein, welcher 

einen Teil implikanten mit der anliegenden Bitkomtoination 
.speichert, die Kennung des zugehorigen Implikanten zuriick. 

Dieser Speicherbaustein der ersten Stufe ist in Figur 4 als 

3-wertiges CAM ausgefuhrt, d.h. , die Eingangsvektoren, die 
30 real als zweiwertige Information an dem Adressbus anliegt, 

wird mit gespeicherter dreiwertigen Inf ormationen verglichen 

Als Ausgabe wird eine zu dem Treffer gespeicherte Kennung, 

ebenfalls dreiwertig, ausgegeben. 

35 Alle Kennungen zusammen bilden die Kennung der Implikanten- 
kombination, die am Eingang des Schaltnetzes anliegt. Diese 
Implikantenkombination kann dabei durchaus mehrere Implikan- 
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ten umfassen. So konnen im dargestellten Beispiel z.B. die 
Implikanten 3, 4 und 8 oder die Kombination der Implikanten 
4, 5 und 8 anliegen. Im ersten Fall liegt die Bitkotnbination 
100001 an der 2. Stufe an, im zweiten Fall die Kombination 
110001 . 

Die Kennung der Implikantenkombinationen wird in der 2. Stufe 
der Schaltung erkannt und liefert fiir j eden beteiligten 
Implikanten den zugehorigen Ausgabewert der S dial tfunkt ion. 
Diese zweite Stufe besteht nun aus einem dreiwertigen RAM, 
d.h,, am die Adressbusinf ormationen dieser Stufe sind drei- 
wertig, die gespeicherten Daten allerdings zweiwertig. 

In der 3 . Stufe der Schaltung werden die Ausgabewerte der an- 
liegenden Implikanten disjunktiv verkniipft und bilden zusam- 
men den Funktionswert der Sclialtf unktion . 

5.1 Speicberbausteine Stufe 1 

Als Speicherbaustein zum Aufnehmen der Teil implikanten kann - 
wie schon erwahnt - ein sehr spezieller Baustein bzw, Archi- 
tektur zum Einsatz kommen, hier mit dreiwertigem CAM gemaS 
Figur 4 bezeichnet. Hierbei muss prinzipiell noch das Problem 
der Mehrf achiibereinstimmung diskutiert werden, was aber im 
Zusammenhang mit anderen Realisierungsmoglichkeiten erfolgen 
soil . 

Moglich als Einsatz fur die Stufe 1 ist auch ein vollassozia- 
tiver Cache. Hier konnen die Teilimplikanten als sogenannter 
Tag gespeichert werden, das gecachte Datum dient als Kennung 
des erkannten Implikanten. Enthalt jedoch ein Teilimplikant 
ungebundene Variablen, die beim Vergleich mit anliegenden 
Bitkombinationen als Don ' t-Care (DC) -Stellen zum Ausdruck kom- 
men, so muss fiir alle Belegungen dieses Implikanten, die den 
Vergleich mit DC erfiillen, ein Tag im Tag-RAM angelegt wer- 
den. Weiterhin ergeben sich durch den Vergleich mit DC 
Uberschneidungen von Teilimplikanten. So gehort z.B. die Bit- 
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kombination 0011 im ersten Teilitnplikantenspeicher des obigen 
Beispiels sowohl zum Implikanten 1 als auch zutn Implikanten 
3 . Es sind also nicht nur Kombinationen von Implikanten mog- 
licli, sondern auch Kombinationen von Teilimplikanten. 

Aus diesem Grunde - und dies gilt als der Vorschlag zur Rea- 
lisierung - werden als Teilimplikantenspeicher normale, d.h. 
zweiwertige RAM-Bausteine bzw. -Architekturen verwendet . Je- 
des dieser RAMs wird durch einen Teil der Eingangsleitungen 
des Schaltnetzes adressiert. An den Adressen, deren Bitkombi- 
nation jeweils demselben Teilimplikanten mit DC~Stellen ent- 
sprechen (jede DC-Stelle in einem Stringterm bedeutet, dass 
die Anzahl der zutreffenden Stellen bei binarer Codierung urn 
den Faktor 2 erhoht wird) , wird jeweils die gleiche Kennung 
im Speicher abgelegt . 1st die Ausgangsbreite des verwendeten 
RAMs groE-er als die zur Darstellung der Kennungen notwendige 
Bitbreite, so konnen die weiteren Bits als Kontextwert ge- 
nutzt werden. Dieser Kontext kann z,B. eine ungiiltige Bele- 
gung der Eingangsvariablen der Schaltf unktion anzeigen. 

Da ein normales RAM keine Statusanzeige fur ein nicht vorhan- 
denes Datum wie z.B. ein Tag-RAM mit seinem Cache-Miss- 
Ausgang besitzt, muss eine Bitkombination auf denjenigen Da- 
tenleitungen, die an die 2. Stufe zum Vergleich der Bitkombi- 
nationen verwendet werden, als Kennzeichnung fur keinen an- 
liegenden Teilimplikanten verwendet werden. In Figur 5 c) ist 
dies durch die Kennung 8 gegeben. 

5.2 Speicherbausteine Stufe 2 

Ebenso wie im bei den RAMs der ersten Stufe zum Speichern der 
Teilimplikanten miissen auch beim Vergleich der Implikanten- 
kombinationen in der 2. Stufe der Schaltung DCs beriicksich- 
tigt werden. Deshalb wird auch hier ein normales RAM verwen- 
det. Dieses RAM wird mit der Kennung der Implikantenkombina- 
tion adressiert. 



18 



200400832 



Da wieder mehrere Adressen derselben Implikantenkombination 
entsprechen konnen, muss der Speicher der zweiten Stufe auf- 
geteilt werden: die Bitkoitibinationen der ersten Stufe adres- 
sieren ein RAM der zweiten Stufe. Dort ist fiir jede giiltige 
5 Implikantenkombination ein Index abgelegt, der wiederum ein 
RAM adressiert, welches seinerseits die Ausgabevariablen der 
beteiligten Implikanten enthalt . So konnen die verschiedenen 
Adressen, die sich durch die Implikantenkombination mit 
Don' t-Care-Stellen ergeben, auf denselben Index der Ausgabe- 
10 werte der Schaltfunktion abgebildet werden. 

Figur 6 zeigt eine entsprechende Abbildung des Ergebnisses 
der Stufe 1 auf eine RAM-Kombination in Stufe 2. 

15 5.3 Endgiiltige Architektur gemaE Figur 7 

Da ein RAM nur einen einzigen Index liefern kann, mussen im 
Speicher der Ausgabewerte die disjunktiv verkniipften Ausgabe- 
werte aller an der erkannten Kombination beteiligten Impli- 

20 kanten werden, Damit muss das Ausgabe-RAM alle moglichen 

Funktionswerte der Schaltfunktion speichern konnen. Da die 
Anzahl der moglichen Funktionswerte exponentiell mit der An- 
zahl der Ausgabevariablen einer Schaltfunktion ansteigt, wer- 
den mehrere Kombinations- und Ausgabe- Speicher der 2. Stufe 

25 parallel verwendet und deren Ausgabekombinationen disjunktiv 
verknupft. Damit konnen alle Funktionswerte einer Schaltfunk- 
tion erzeugt werden. 

Um die Kapazitat der einzelnen Kombinationsspeicher besser 
3 0 ausnutzen zu konnen, werden alle Datenleitungen der Implikan- 
tenspeicher mit alien Adressleitungen der Kombinationsspei- 
cher liber einen Crossbar-Switch verbunden. Damit konnen be- 
liebige Datenleitungen die Adressierung der Kombinations-RAMs 
libernehmen. Nicht verwendete Datenleitungen konnen liber den 
35 Crossbar-Switch als Kontext- Information weitergeleitet wer- 
den. 



19 



200400832 



In einem letzten Schritt wird der erzeugte Ausgabewert bit- 
weise uber die Exklusiv- Oder -Funkt ion mit einem Registerin- 
halt verknupft, urn einzelne Ausgabevariablen invertieren zu 
konnen und so ggf - kleinere Logikminimierungen zu erhalten. 
5 Damit besteht die 3. Stufe der Schaltung aus der disjunktiven 
Verkniipfung der Ausgabekombinationen und der anschlieJ3»enden 
moglichen Invertierung einzelner Ausgabebits. 

Insgesamt ergibt sich das Prinzipschaltbild der Figur 7 fur 
10 ein erf indungsgemalSes Schaltnetz. 

5.4 Diskussion der Architektur 

Die Intention der Erfindung ist es, sowohl eine RAM-basierte 
15 Architektur zur Implementierung groJl.er Schaltnetze als auch - 
gewissermalSen als Anwendung zur Aufnahme einer universellen 
Maschine - diese Architektur zur Aufnahme von GCAs anzubie- 
ten. Zur Aufnahme einer beliebigen Funkt ion im RAM muss der 
Speicherplatz in dem Speicher exponentiell mit der Anzahl der 

2 0 Eingange (und linear mit der Anzahl der Ausgange) wachsen. Im 

Fall des obigen Beispiels bedeutet dies, dass eine beliebige 
Funkt ion mit 12 Ein- und 12 Ausgangen einen Speicherbedarf 
von 4096 * 12 bit entsprechend 6144 Bytes hatte, Bei 32 Ein- 
gangen und 8 Ausgangen waren dies bereits 4 GByte an Spei- 
25 cherkapazitat . 

Die vorgeschlagene Architektur eines mehrstufigen Netzwerks 
beinhaltet lediglich 211,5 Bytes RAM, namlich: 

3 0 3x Implikant en-RAM 16x4 24 Bytes 

3x Kombinat ions -RAM 64x4 96 Bytes 

3x Ausgabe-RAM 16x12 72 Bytes 

Crossbar ~ Switch- Konfigurat ion 18 Bytes 

Invertierung 12x1 1,5 Bytes 

35 Summe 211,5 Bytes 

Damit liegt der wesentliche Vorteil darin, dass diese Archi- 



20 



200400832 



tektur erheblich platzsparender ist als eine LUT-basierte Ar- 
chitektur. Hierbei ist zu berucksichtigen, dass nicht jede 
Funktion auf diese Weise darstellbar ist. 

5 Urn eine Applikation in diese Architektur abbilden zu konnen, 
mussen mehrere notwendige Bedingungen erfiillt sein. Die erste 
Bedingung ist diejenige, dass die Anzahl der verschiedenen 
Teil-Stringterme, die in einer Spalte vorhanden sind, auf die 
RAMs der ersten Stufe abgebildet werden konnen. Dies ist au- 
10 tomatisch dadurch erfullt, dass diese RAMs alle Kombinationen 
aufnehmen (weil sie CAMs emulieren) , lediglich die Eingangs- 
breite der Schaltung muss fiir Applikation ausreichen. 

Die zweite Bedingung schlieiSt sich hier an: Die Anzahl der 
15 verschiedenen Teil-Stringtermkombinationen, die in der Appli- 
kation nach Minimierung enthalten sind, muss codierbar sein. 
Dies bedeutet, dass eine Anzahl von Speicherstellen zur Ver- 
fiigung stehen muss. Zur Ef f izienzabschatzung sei m die Ein- 
gangsbreite des Schaltnetzes . Dies wiirde bedeuten, dass 2m 
20 Speicherzellen benotigt wiirden, um die komplette Funktion 
darzustellen . 

Wenn k nun die Parallelitat der Bausteine (Anzahl der Bau- 
steine) und 2s die Kapazitat eines Bausteins ist, so muss fiir 
25 eine effizientere Speicherung der Applikation die Ungleichung 
* s < m-1 (3) 
gel ten. Je deutlicher die Unterschreitung ausfallt, des to ef- 
fizienter war die Implementierung . 

3 0 Bedingung 3 bedeutet, dass die Ausgangsbreite geeignet ge- 
wahlt sein muss. 

6 Abbildung von GCAs auf die Architektur 

3 5 Zur Abbildung von GCAs auf die erf indungsgemaJSe Architektur 
mussen noch Speicherelemente eingefiihrt werden, die takt- 
gesteuert das Fortschreiten in der Rechnung speichern. Dies 

21 



200400832 



hat seine Ursache darin, dass GCAs als Array von FSMs defi- 
niert sind, und diese sind in der Regel synchronisiert , Hier 
ist angenommen, dass ein globaler Takt zur Synchronisation 
genommen wird. Alia Impleinentierungen von nicht-globalen, 
5 insbesondere nicht in gegenseitiger Beziehung stehenden Tak- 
ten wiirden zu wesentlichen Problemen fuhren, sind jedoch in 
der Praxis saltan anzutreffen. 

Figur 8 zeigt ein weiteres Beispiel fiir eine konf igurierbare 
10 Architektur der vorgeschlagenen Art, nunmehr ausgestattet mit 
Registern zur Speicherung von Zustanden. Zusatzlich ist ein 
weiterer Crossbar-Switch eingefiigt, der an dieser Stelle u.a. 
dazu dient, Ein- und Ausgabeschnittstellen fiir den Rechner 
bereitzustellen. Dies ist zwar fiir das grundlegende Verstand- 
15 nis der Architektur unerheblich, im praktischen Betrieb je- 
doch notwendig, well ein Rechner mit AuiSenans chilis sen verse- 
hen sein muss . 

Der Speicherbedarf dieser beispielhaf ten Architektur berech- 
2 0 net sich zu 



8x minterm-RAM 256x8 2 KBytes 

8x combination-RAM 64Kx8 512 KBytes 

Bx output-vector-RAM 256x64 16 KBytes 

25 2xCrossbar- Switch configuration 1 KBytes 

Inverting register 64x1 8 Bytes 

Sxim 531 KBytes 



Damit ist verdeutlich, wie gering die Speicheranf orderungen 
30 sind; ein RAM mit 264 * 64 bit (=267 Bytes) ist jedenfalls 

nicht in der Herstellung moglich. Sollten bei einer Applika- 
tion auf dieser Architektur Leitungen von den RAMs der ersten 
Stufe ungenutzt bleiben, konnen diese als Kontextinf ormatio- 
nen genutzt werden. Eine Anwendung besteht dabei in der Kon- 
35 textumschaltung, die fur die RAMs der zweiten Stufe zusatz- 
lich moglich sein konnte, Werden also beispielsweise bei ei- 
nem RAM nur 14 Adressbits benotigt, dann konnen die Informa- 
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tionen fur diese 14 bit viermal gespeichert werden, also in 
vier verschiedenen Kontexten stehen. 

Aus Figur 9 ist der prinzipielle Aufbau einer rekonf igurier- 
baren Architektur nach der Erfindung zu entnehmen, wie sie 
zur Aufnahme von CGAs geeignet ist. Dieser Aufbau stellt eine 
Verallgemeinerung des Aufbaus nach Figur 8 dar . Insbesondere 
sind die RAM-Stufen 1 und 2 durch gestrichelte Linien ver- 
deutlicht . 

7 Literaturzitate 

[1] Rolf Hoffmann, Klaus-Peter Volkmann, Wolfgang Heenes : 

"Globaler Zellularautomat (GCA) : Bin neues massivparalle- 

les Berechnungsmodell" , Mitteilungen - Gesellschaft fiir 

Informatik e.V., Parallel -Algorithmen und Rechnerstruktu- 

ren, ISSN 0177-0454 Nr. 18, 2001, Seiten 21-28; 

http : / /www . ra . informatik . tu-darmstadt . de/publika tionen/ 

publik.html 

[2] R.K.Brayton et.al.: "Logic Minimization Algorithms for 

VLSI Synthesis", Kluwer Academic Publishers, USA 1984. 
[3] Mike Trapp : "PLD-design methods migrate existing designs 

to high-capacity devices", EDN Access, Febr . 1994; 

http : //www. reed-electronics . com/ednmag/ar chives/ 1994/ 

021794/04df l.htm 
[4] Wolfgang Heenes, Rolf Hoffmann, Klaus-Peter Volkmann: 

"Architekturen fur den globalen Zellularautomaten" . 19th 

PARS Workshop, March 19-21, 2003 Basel; 

http : //www . ra . informatik . tu-darmstadt . de/publikationen/ 
pars03 .pdf 



200400832 



Patentanspriiche 

1. Rekonf igurierbare Architektur einer Rechnereinrichtung mit 
wenigstens einem einzeln konf igurierbaren und/oder rekonfigu- 

5 rierbaren Schaltnetz, dessen Ausgangsvariablen zu einem Zeit- 
punkt tn-i die Eingangsvariablen des Schaltnetzes zu einem 
Zeitpunkt tn bilden, und mit Mitteln zu einem taktgesteuerten 
Speichern der Ausgangsvariablen des Schaltnetzes zwischen den 
Zeitpunkten tn-i und tn. 

10 

2. Architektur nach Anspruch 1, dadurch gekennzeichnet , dass 
die Speichermittel Registerspeicher sind. 

3. Architektur nach Anspruch 1 oder 2, gekennzeichnet durch 
15 eine dreistufige Ausbildung des Schaltnetzes. 

4- Architektur nach Anspruch 3, gekennzeichnet 

durch eine erste Stufe aus mehreren parallel geschalteten 
Speicherbausteinen, die uber Eingabeleitungen adressierbar 

2 0 sind, wobei jedem Speicherbaustein eine Teilmenge der in 

einem zugehorenden, ermittelten Implikanten gebundenen 
Eingabevariablen zuzufiihren sind, 

durch eine der ersten Stufe nachgeordnete zweite Stufe mit 
Speicherbausteinen, die durch die Kennungen der einzelnen 
25 Implikanten zu adressieren sind, 

und 

durch eine der zweiten Stufe nachgeordnete dritte Stufe 
mit Mitteln zu einer disjuktiven Verkniipfung der Ausgabe- 
werte der einzelnen Implikanten aus den Speicherbausteinen 

3 0 der zweiten Stufe - 

5. Architektur nach Anspruch 4, gekennzeichnet durch eine Er- 
mittlung der Implikanten durch Minimierungsverf ahren . 

35 6. Architektur nach Anspruch 4 oder 5, dadurch gekennzeich- 
net, dass die erste Stufe mit der zweiten Stufe liber wenigs- 
tens einen Crossbar-Switch miteinander verknupft ist- 



24 



200400832 



7. Architektur nach einem der vorangehenden Anspriiche, ge- 
kennzeichnet durch CAMs- und/oder RAMs als Speicherbausteine . 

5 8. Architektur nach einem der vorangehenden Anspriiche, ge- 
kennzeichnet durch eine Integration wenigstens eines CGAs . 

9. Architektur nach einem der vorangehenden Anspriiche, ge- 
kennzeichnet durch magnetoresistive Speicherelemente, insbe- 
10 sondere vom TMR-Typ. 
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Zus ammenf a s sung 

Rekonf igurierbare Architektur zur parallelen Berechnung 
beliebiger Algorithmen 

5 

Die konf igurierbare Architektur einer Rechnereinrichtung 
weist wenigstens ein einzeln konf igurierbares und/oder rekon 
f igurierbares Schaltnetz auf , dessen Ausgangsvariablen zu ei 
nem Zeitpunkt tn~i die Eingangsvariablen des Schaltnetzes zu 
10 einem Zeitpunkt tn bilden. Es sind Mittel zu einem taktge- 
steuerten Speichern der Ausgangsvariablen des Schaltnetzes 
zwischen den Zeitpunkten tn-i und tn vorgesehen. 

FIG 9 
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